音声情報処理 05
スペクトル包絡の抽出
音色
⾳声のコンピューティング
⾳声⾃体はアナログ信号
digital デジタルへと変換:AD変換
標本化 samplingと量⼦化
⾳声の標本化周波数:8kHz, 10kHz, 16kHz
⾳楽の標本化周波数:44.1kHz
ディジタル化した信号(つまり数値データ)を分析
代表的な⾳響的分析
スペクトル包絡の抽出
⾳⾊に関わる
基本周波数の抽出
⾳⾼に関わる
周波数解析
⾳声信号をフーリエ変換 Fourier transformationし,振幅 Amplitudeスペクトルに着⽬
フーリエ変換
「時間−振幅」を「周波数−パワー」に変換
$ s(t)を$ S(ω)に変換
ω:周波数 Frequency 振動数
複雑な信号も全てSine サイン 正弦波形の組み合わせ
逆フーリエ変換
↑の逆
パワースペクトルの算出
実際には,S(ω)は振幅 Amplitude成分と位相 topology成分に分かれる
パワースペクトルでは,振幅成分に着⽬
フーリエ変換 Fourier transformationの理想と現実
現実の連続的な⾳声信号の分析
時刻ごとに⾳響特性が変化:
どの周波数帯域にパワーが集中するのか時間的に変化
フーリエ変換では,理想的に,無限の時間領域を仮定
原理的に不可能
短い区間の時間⻑ごとに分析
スペクトル特性が⼀定と考えられる短い時間区間を対象とする
短時間フーリエ変換 STFT
短い時間ごとに複数の周波数構造が得られる
↓
離散フーリエ変換
系列⻑Nでデジタル化(離散化)されたデータ系列
$ s_k= $ s(k \Delta T)に対する周波数分析
∫→Σ
離散的 Distributiveに
離散フーリエ変換におけるトレードオフ
データ数Nの系列$ s_kの時間幅は$ \Delta T
時間幅(フレーム)$ \Delta TのデータがN個連なっている
$ S_n周波数幅$ \Delta Fは$ {(N\Delta T)^{-1}})となる
どの程度細かく周波数 Frequency 振動数を分解できるのか
データ間の周波数のギャップはどの程度なのか
分析対象の窓を⻑くする( $ \Delta Tを⼤きくする)と
周波数分解能は上がる:1データが相当する周波数が細かくなる
データ数が増える細かな周期が⾒られる
時間分解能は下がる:1フレームに相当する時間⻑が⻑くなる
荒くデータを分割することになる
時間と周波数の分解能 Optical resolutionはトレードオフ
ソースフィルタモデル
⾳源と声道の分離
微細構造の除去
メル尺度MFCC